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ЗАКОНОМЕРНОСТЬ РАСПРЕДЕЛЕНИЯ 
ДОКУМЕНТОВ ПО КЛАССАМ БЛИЗОСТИ 
К БИНАРНЫМ ВЕКТОРАМ ТЕРМИНОВ 
ПОИСКОВЫХ ЗАПРОСОВ В ПОЛИТЕМАТИЧЕСКИХ 
МАССИВАХ КОРОТКИХ ДОКУМЕНТОВ 


Одно из важных открытий в области библиометрии и наукометрии 
было сделано С. Брэдфордом, сформулировавшим закон рассеяния 
статей по одной тематике в системе периодических изданий [1]. Мож- 
но сказать, что эта закономерность характеризует нарастание затрат 
(количество просматриваемых статей) при попытке найти всю инфор- 
мацию по заданной тематике, начиная поиск с наиболее профильных 
периодических изданий и переходя к менее профильным. 

Настоящее исследование направлено на определение таких затрат 
при работе с ранжирующими информационно-поисковыми системами 
(ИПС) с бинарной метрикой (о таких системах можно прочитать, на- 
пример, в работах [2] и [3]), в которых в качестве документов исходно- 
го поискового массива используются короткие тексты (рефераты, но- 
востные сообщения и т.д.) и/или части больших текстов (например, аб- 
зацы статей или книг). 

В таких ИПС документы исходного массива делятся на классы в за- 
висимости от того, сколько терминов из вектора поискового запроса со- 
держится в каждом из документов. В качестве составляющих вектора 
запроса и документа выступают ключевые слова, индексы классифика- 
ций, дескрипторы, фразы или просто слова естественного языка. При 
использовании бинарной метрики терминам запроса не приписываются 
веса значимости, и каждому из них соответствуют два возможных со- 
стояния: либо он содержится в данном документе, либо нет [2, с. 143]. 

Автором настоящего исследования утверждается, что независимо 
от языка, на котором написаны документы (при условии, что вектор 
запроса состоит из терминов того же языка), для политематических 
массивов размеры классов (количество документов в классе) подчиня- 
ются следующей закономерности, независимо от тематики поискового 
запроса: 


д 
= 1 б.р, 
п (м) пох № 


где п (и) — количество документов класса, бинарная мера близости ко- 
торого к вектору запроса (количество совпавших терминов) равна п; 
По - количество документов исходного массива, не имеющего ни одно- 
го общего термина с вектором запроса; № — общее количество доку- 
ментов исходного массива. 

Естественным условием проявления закономерности является то, 
что термины вектора запроса выбираются неслучайно и отражают лек- 
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сику исследуемой тематической области. Исключается использование 
в векторе запроса предлогов, союзов, частиц, но допускается использо- 
вание терминов, присущих не только исследуемой, но и другим тема- 
тическим областям. Окончательное определение условий проявления 
закономерности требует продолжительных экспериментов, но уже 
первые опыты показали хорошее совпадение теоретических и экспе- 
риментальных результатов (см. раздел «Экспериментальная провер- 
ка»). 


Теоретическое обоснование 


Документальный векторный поиск с бинарной метрикой основыва- 
ется на определении степени смыслового соответствия между содер- 
жанием документа и информационным запросом, которые выражаются 
следующим образом: 


ПО: Е К, (1) 


где К — максимальное количество (без учета повторений) терминов 
вектора запроса, присутствующих в документах (документе) исходного 
поискового массива. 

Распределение документов исходного поискового массива в соот- 
ветствии со значениями и обозначим через р(и), 


"() 
р (и)= ^^ 2) 
№ 
где п(н) — количество документов исходного массива, содержащих 
ровно и терминов из вектора запроса; М — общее количество докумен- 
тов исходного массива. 
По определению, 


Уп (и = № (3) 
д 

Следовательно, 
Ур (и = 1 (4) 
д 


При поиске в различных политематических массивах документов 
по любому тематически избирательному запросу математическое ожи- 
дание величины степени смыслового соответствия документа и запро- 
са Е(ц) (конечно, при использовании неслучайных и осмысленных 
терминов в запросе) близко к нулю. Где 


Е(и) =Хи хр (и) 
д 
Значение Е(и) достигает минимума при самом избирательном за- 
просе, когда вектор запроса характеризует только один термин и на 
этот запрос выдаётся ровно один документ, при этом значение Е(и) = 
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1/№. Значение Е(и) достигает максимума при самом неизбирательном 
запросе, когда вектор запроса характеризуется всеми словами, исполь- 
зуемыми во всех документах поискового массива, при этом значение 
Е(ц) = М, где М - среднее количество слов в документах поискового 
массива. Например, если все документы поискового массива содержат 
по 400 слов, то Е(и) = 400. Мы предполагаем, что при использовании 
неслучайных и осмысленных терминов в запросах, каждый из которых 
характеризует конкретную тематическую область, при поиске в поли- 
тематических массивах значения Е(и) будут колебаться вокруг некоего 
среднего значения Е‹› близкого к нулю. Например, в проведенных экс- 
периментах (см. далее) значение Е‹› = 0,25. Требуется проведение зна- 
чительного количества дополнительных экспериментов для уточнения 
величины Еср. 

Итак мы предполагаем, что векторный поиск в политематических 
массивах документов можно охарактеризовать условием: 


Хихр (и р = соп5й (5) 
и 


Во многих случаях вместо величин р(и) удобнее и нагляднее ис- 
пользовать величины: 


(м )=-ю8 р (и), (6) 


названные в теории информации количеством информации случай- 
ной величины п [4, с. 24]. 
Математическое ожидание: 


$ |--Хр (и кю р (и) (7) 


называется энтропией распределения р(и) [4, с. 25]. — 

Можно найти наиболее вероятное распределение г (и) для всех 
векторов осмысленных тематических запросов, используя метод поис- 
ка наиболее вероятных распределений, разработанный в статистиче- 
ской физике [5, с. 320-327]. Суть метода заключается в поиске макси- 
мума энтропии (7) при заданных условиях. В нашем случае такими ус- 
ловиями являются условия (4) и (5). Основание логарифма в выраже- 
нии энтропии для наших задач несущественно, далее будем использо- 
вать натуральные логарифмы. Применим метод Лагранжа для поиска 
максимума функции: 


ры 


Рассмотрим 5(и) как функцию от (К+1)-ой независимой переменной 
р(и) и найдем ее максимум при условиях: 
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рб) 

р (8) 
ХУ ихр (. | ббих 

и=0 


В данном случае лагранжиан имеет вид: 


прозы Вино] 


где Л и а— множители Лагранжа. 
Дифференцируя Г, частным образом по каждой из переменных р(н), 
получаем следующую систему из (К+1)-го уравнения: 


ш ри +1 +4 +на =0 и =0 К 
Откуда 


Р (в ) Е 9) 


где В =е . Множитель В можно определить по формуле (9), поло- 
жив Ц = 0, тогда для всех распределений р(и) 


В=р(0) = ро, (10) 


—(1+^) 


тогда 
р ( )= роже вм 


Множитель © определим из условия нормировки (4): 
Хр (и }= Хрожетаи =1, 
р и 
или, учитывая (1), 
рох(1+е?е”?9+....+е“®) = 1 


Сумма в скобках равна сумме геометрической прогрессии со зна- 
менателем е“<1, и условие нормировки преобразуется к виду 


рох( Евы 


—“ 





=] 
1-е 
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Предположим, учитывая свойства экспоненты с отрицательной сте- 
пенью, что значение е “` пренебрежительно мало. В дальнейшем мы 
подтвердим корректность такого предположения. 

Тогда условие нормировки преобразуется к виду 


= 
1-е“ 


а =-ш (-р) (11) 


Экспериментальные исследования, представленные ниже, показы- 
вают, что даже для минимального значения К = 7 величина — оК = — 
1,6х7 =- 11,2, ае “= 0,000014. 

Учитывая (10) и (11), получим из (9) окончательное выражение для 
наиболее вероятного распределения 


В (и) роел (роди = роИ-ро}" (12) 


Или 
д 


п (и)= пох г. (13) 


где п(и) — количество документов класса, бинарная мера близости ко- 
торого к вектору запроса равна |; по — количество документов исход- 
ного массива, не имеющего ни одного общего термина с вектором за- 
проса; М — общее количество документов исходного массива. 


Экспериментальная проверка 


В таблице 1 приводятся экспериментальные и теоретические значе- 
ния р(и) для различных тематических запросов. Эксперименты прово- 
дились на ИПС «ЗОУА+» [6], разработанной в ФГУП ИПР «Информэ- 
лектро». Экспериментальные распределения р(и) получены при поиске 
в массиве документов из бюллетеня «Промышленность: 100 новостей», 
выпускаемого тем же институтом. Размер исходного массива М№=4703 
документа. Теоретические распределения построены по формуле (12). 

Выявленная закономерность дает возможность усовершенствовать 
разработанный автором метод поиска информации [7]. 

В таблице 2 приводится список слов, использованных при поиске 
по теме «Экология». 

В таблице 3 приводится фрагмент бинарной матрицы «запрос- 
документ» для списка слов по теме «Экология». 
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Таблица 1 


Результаты сравнения экспериментальных и теоретических значений 
р(и для различных тематических запросов 













































































































































































Способ экспериментальные и теоретические 
Тематика запроса | "®ЛУЧ6- ИНЬ 
ния величины 
р(и) 0111213141516171819 
Экология эксп. _|0.80|0.16|0.03 |0.01]0.0010.0010.0010.00] - | - 
(49 терминов) теор. |0.80|0.16|0.03 |0.0110.0010.0010.00] —- [- | - 
Телекоммуникации эксп. _|0.9010.08 10.02 0.00 |0.0010.00|0.00 10.00 |0.0010.00 
(33 термина) теор. |0.90|0.09 [0.01 10.00 10.00 
Очистка воды эксп. 0.97 |0.0310.0010.00|0.0010.00 [0.00 10.00 |0.0010.00 
(16 терминов) теор. |0.97|0.03 10.00 
Металлургия эксп. [0.59 |0.2210.1010.05 0.02 |0.01]0.0110.00 |0.0010.00 
(43 термина) теор. _|0.59|0.24|0.1010.04|0.02 |0.0110.00 10.00 |0.0010.00 
Информационные эксп. _|0.88 |0.1110.0110.00|0.0010.00|0.00 10.00 |0.0010.00 
технологии теор. 10.8810.1110.0110.0010.00 
(26 терминов) 
Фундаментальная наука | эксп. |0.73 |0.2010.05 |0.0110.0010.0010.0010.0010.00]_— 
(17 терминов) теор. _|0,73 |0,2010,05 [0,01]0,00 0,00] 0,00 10,00] -—- | - 
Таблица 2 
Список слов, использованных при поиске по теме «Экология» 
№ Слово № Слово 
1 экологически 26 воздуха 
2 экологической 27 вредных 
3 отходов 28 мусора 
4 технология 29 новая 
5 чистых 30 нового 
6 серы 31 новую 
7 технологии 32 новых 
8 безопасности 33 окружающей 
9 выбросы 34 отходы 
10 | обработки 35 охране 
11 очистки 36 очистных 
12 переработке 37 природопользованию 
13 переработки 38 радиоактивных 
14 содержанием 39 среды 
15 технологию 40 территории 
16 | установка 41 технологий 
17 химических 42 установку 
18 чистого 43 ХИМИИ 
19 чистой 44 химического 
20 ЧИСТЫЙ 45 чистая 
21 экономические 46 чистые 
22 | экологический 47 эко 
23 экологическую 48 экологических 
24 атмосферу 49 экология 
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жжя 


Установленная закономерность позволяет оценить нарастание за- 
трат (количество просматриваемых документов) при попытке найти 
всю информацию по определенной тематике, используя ранжирующую 
ИПС бинарного типа и начиная просмотр с документов, принадлежа- 
щих классу, характеризующемуся максимальной степенью близости к 
запросу (и = К). Для запроса по теме «Экология» теоретически оцени- 
ваемое нарастание затрат (формула (13), М = 4703 документов, значе- 
ние по установлено экспериментально и равно 3726 документам) будет 
происходить следующим образом: п(5) = 1 документ, п(4) = 6 докумен- 
тов, п(3) = 30 документов, п(2) = 190 документов, п(1) = 750 докумен- 
тов. Таким образом, для просмотра последнего класса документов по- 
требуется затрат в 3 раза больше, чем для просмотра всех предыдущих 
классов документов вместе взятых. При этом может оказаться, что 
именно в этом последнем классе в небольшом количестве содержится 
наиболее интересная для пользователя информация. 

Выявленная закономерность дает возможность усовершенствовать 
разработанный автором метод поиска информации [7] и повысить эф- 
фективность поиска релевантных документов, принадлежащих клас- 
сам, характеризующимся малыми значениями степени близости к за- 


просу. 
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